Giving machines the ability to imagine possible new objects or scenes from linguistic descriptions and produce their realistic renderings is arguably one of the most challenging problems in computer vision. Recent advances in deep generative models have led to new approaches that give promising results towards this goal. In this paper, we introduce a new method called DiCoMoGAN for manipulating videos with natural language, aiming to perform local and semantic edits on a video clip to alter the appearances of an object of interest. Our GAN architecture allows for better utilization of multiple observations by disentangling content and motion to enable controllable semantic edits. To this end, we introduce two tightly coupled networks: (i) a representation network for constructing a concise understanding of motion dynamics and temporally invariant content, and (ii) a translation network that exploits the extracted latent content representation to actuate the manipulation according to the target description. Our qualitative and quantitative evaluations demonstrate that DiCoMoGAN significantly outperforms existing frame-based methods, producing temporally coherent and semantically more meaningful results.
translated by 谷歌翻译
我们提出了一种新颖的方法,可以可靠地估计相机的姿势,并在极端环境中获得的一系列图像,例如深海或外星地形。在这些挑战性条件下获得的数据被无纹理表面,图像退化以及重复性和高度模棱两可的结构所破坏。当天真地部署时,最先进的方法可能会在我们的经验分析确认的那些情况下失败。在本文中,我们试图在这些极端情况下使摄像机重新定位起作用。为此,我们提出:(i)一个分层定位系统,我们利用时间信息和(ii)一种新颖的环境感知图像增强方法来提高鲁棒性和准确性。我们广泛的实验结果表明,在两个极端环境下我们的方法有利于我们的方法:将自动的水下车辆定位,并将行星漫游者定位在火星样的沙漠中。此外,我们的方法仅使用20%的培训数据就可以在室内基准(7片数据集)上使用最先进的方法(7片数据集)实现可比性的性能。
translated by 谷歌翻译
我们提出了一个Point2cyl,一个监督网络将原始3D点云变换到一组挤出缸。从原始几何到CAD模型的逆向工程是能够在形状编辑软件中操纵3D数据的重要任务,从而在许多下游应用中扩展其使用。特别地,具有挤出圆柱序列的CAD模型的形式 - 2D草图加上挤出轴和范围 - 以及它们的布尔组合不仅广泛应用于CAD社区/软件,而且相比具有很大的形状表现性具有有限类型的基元(例如,平面,球形和汽缸)。在这项工作中,我们介绍了一种神经网络,通过首先学习底层几何代理来解决挤出汽缸分解问题的挤出圆柱分解问题。精确地,我们的方法首先预测每点分割,基础/桶标签和法线,然后估计可分离和闭合形式配方中的底层挤出参数。我们的实验表明,我们的方法展示了两个最近CAD数据集,融合画廊和Deepcad上的最佳性能,我们进一步展示了逆向工程和编辑的方法。
translated by 谷歌翻译
功能图是形状对应关系的有效表示,它提供了在形状对之间的实际函数的匹配。功能映射可以被建模为Lie Group $ So(n)$的元素为近等距形状。随后可以采用同步来强制在一组形状上计算的功能映射之间强制循环一致性,从而提高各个映射的准确性。有兴趣开发尊重$ SO(n)$的几何结构的同步方法,同时引入概率框架来量化与同步结果相关的不确定性。本文介绍了$ SO(n)$的贝叶斯概率推理框架,因为函数贴图的riemannian同步,通过同步执行功能贴图的最大-a-postiori估计,并进一步部署了riemannian马尔可夫链蒙特卡罗采样器以进行不确定性量化。我们的实验表明,限制了riemannian歧管$ SO(n)$的同步,从而提高了功能地图的估计,而我们的riemannian MCMC采样器提供了第一次不确定性量化结果。
translated by 谷歌翻译
不服从统计学习理论的古典智慧,即使它们通常包含数百万参数,现代深度神经网络也概括了井。最近,已经表明迭代优化算法的轨迹可以具有分形结构,并且它们的泛化误差可以与这种分形的复杂性正式连接。这种复杂性由分形的内在尺寸测量,通常比网络中的参数数量小得多。尽管这种透视提供了对为什么跨分层化的网络不会过度装备的解释,但计算内在尺寸(例如,在训练期间进行监测泛化)是一种臭名昭着的困难任务,即使在中等环境维度中,现有方法也通常失败。在这项研究中,我们考虑了从拓扑数据分析(TDA)的镜头上的这个问题,并开发了一个基于严格的数学基础的通用计算工具。通过在学习理论和TDA之间进行新的联系,我们首先说明了泛化误差可以在称为“持久同源维度”(PHD)的概念中,与先前工作相比,我们的方法不需要关于培训动态的任何额外几何或统计假设。然后,通过利用最近建立的理论结果和TDA工具,我们开发了一种高效的算法来估计现代深度神经网络的规模中的博士,并进一步提供可视化工具,以帮助理解深度学习中的概括。我们的实验表明,所提出的方法可以有效地计算网络的内在尺寸,这些设置在各种设置中,这是预测泛化误差的。
translated by 谷歌翻译
我们通过同步在点云上定义的学习函数的地图同步地图来共同寄存多种非刚性形状的新方法。尽管处理非刚性形状的能力在从计算机动画到3D数字化的各种应用中都是至关重要的,但文献仍然缺乏围绕闭塞观察到的真实,嘈杂的扫描的集合的稳健和灵活的框架。给定一组这样的点云,我们的方法首先计算通过功能映射参数化的成对对应关系。我们同时学习潜在的非正交基础函数,以有效地规范变形,同时以优雅的方式处理闭塞。为了最大限度地受益于推断成对变形字段提供的多向信息,我们通过我们的新颖和原则优化配方将成对功能映射与周期一致的整体同步。我们通过广泛的实验证明了我们的方法在注册准确性中实现了最先进的性能,同时可以灵活,高效,因为我们在统一框架中处理非刚性和多体案例并避免昂贵的优化优化通过使用基函数映射的置换。
translated by 谷歌翻译
使用深度神经网络的所以(3)歧管上的回归旋转是一个重要的尚未解决的问题。欧几里德网络输出空间与非欧几里德的间隙如(3)歧管对向前和后侧通行证的神经网络学习施加了严重的挑战。虽然有几个作品提出了不同的回归型旋转表示,但很少有效地致力于改善后向通过的梯度背交。在本文中,我们提出了一种歧管感知梯度,即直接逆产到深网络权重。利用黎曼梯度和新型投影梯度,我们提出的正规投影歧管梯度(RPMG)有助于网络在各种旋转估计任务中实现新的最先进性能。所提出的梯度层也可以应用于诸如单元球的其他平滑歧管。
translated by 谷歌翻译
我们呈现Quantumsync,第一个量子算法,用于在计算机视觉上下文中解决同步问题。特别是,我们专注于置换同步,涉及在离散变量中解决非凸优化问题。首先,首先将同步分为二次无约会二进制优化问题(QUBO)。虽然这种制定尊重问题的二进制本质,但确保结果是一系列排列需要额外的护理。因此,我们:(i)展示如何将置换约束插入QUBO问题,并且(ii)解决了在绝热量子计算机D波的当前产生的受限Qubo问题。由于Quantum退火,我们保证了全球最优能力,同时采样能量景观以产生信心估计。我们的概念验证在绝热D波计算机上实现展示量子机器提供了解决普遍又困难的同步问题的有希望的方法。
translated by 谷歌翻译
法律文本的处理一直是自然语言处理(NLP)的新兴领域的发展。法律文本包含词汇,语义,语法和形态中的独特术语和复杂的语言属性。因此,对于法律领域特定的文本简化(TS)方法的开发对于促进普通人理解法律文本并为主流法律NLP应用程序的高级模型提供投入至关重要。尽管最近的一项研究提出了一种基于规则的TS法律文本方法,但以前尚未考虑法律领域中的基于学习的TS。在这里,我们介绍了一种无监督的法律文本简化方法(USLT)。 USLT通过替换复杂的单词和分裂长句子来执行特定于域的TS。为此,USLT检测句子中的复杂单词,通过掩盖转换器模型生成候选者,并根据等级分数选择替代的候选者。之后,USLT递归将长句子分解为较短的核心和上下文句子的层次结构,同时保留语义含义。我们证明,USLT在文本简单性中优于最先进的域总TS方法,同时保持语义完整。
translated by 谷歌翻译
卷积神经网络(CNN)已成功应用于胸部X射线(CXR)图像。此外,已证明注释的边界框可以改善CNN的可解释性,以定位异常。但是,只有几个相对较小的CXR数据集可用,并且收集它们非常昂贵。在放射科医生的临床工作流程期间,可以计时地,可以以非侵入性的方式收集眼睛跟踪(ET)数据。我们使用从放射科医生记录的ET数据,同时要求CXR报告训练CNN。我们通过将它们与关键字的命令相关联,并使用它们来监督异常的本地化,从而从ET数据中提取摘要。我们表明,此方法改善了模型的解释性,而不会影响其图像级分类。
translated by 谷歌翻译